In this paper, we present a novel visual SLAM and long-term localization benchmark for autonomous driving in challenging conditions based on the large-scale 4Seasons dataset. The proposed benchmark provides drastic appearance variations caused by seasonal changes and diverse weather and illumination conditions. While significant progress has been made in advancing visual SLAM on small-scale datasets with similar conditions, there is still a lack of unified benchmarks representative of real-world scenarios for autonomous driving. We introduce a new unified benchmark for jointly evaluating visual odometry, global place recognition, and map-based visual localization performance which is crucial to successfully enable autonomous driving in any condition. The data has been collected for more than one year, resulting in more than 300 km of recordings in nine different environments ranging from a multi-level parking garage to urban (including tunnels) to countryside and highway. We provide globally consistent reference poses with up to centimeter-level accuracy obtained from the fusion of direct stereo-inertial odometry with RTK GNSS. We evaluate the performance of several state-of-the-art visual odometry and visual localization baseline approaches on the benchmark and analyze their properties. The experimental results provide new insights into current approaches and show promising potential for future research. Our benchmark and evaluation protocols will be available at https://www.4seasons-dataset.com/.
translated by 谷歌翻译
Knowledge distillation is often used to transfer knowledge from a strong teacher model to a relatively weak student model. Traditional knowledge distillation methods include response-based methods and feature-based methods. Response-based methods are used the most widely but suffer from lower upper limit of model performance, while feature-based methods have constraints on the vocabularies and tokenizers. In this paper, we propose a tokenizer-free method liberal feature-based distillation (LEAD). LEAD aligns the distribution between teacher model and student model, which is effective, extendable, portable and has no requirements on vocabularies, tokenizer, or model architecture. Extensive experiments show the effectiveness of LEAD on several widely-used benchmarks, including MS MARCO Passage, TREC Passage 19, TREC Passage 20, MS MARCO Document, TREC Document 19 and TREC Document 20.
translated by 谷歌翻译
This paper presents E5, a family of state-of-the-art text embeddings that transfer well to a wide range of tasks. The model is trained in a contrastive manner with weak supervision signals from our curated large-scale text pair dataset (called CCPairs). E5 can be readily used as a general-purpose embedding model for any tasks requiring a single-vector representation of texts such as retrieval, clustering, and classification, achieving strong performance in both zero-shot and fine-tuned settings. We conduct extensive evaluations on 56 datasets from the BEIR and MTEB benchmarks. For zero-shot settings, E5 is the first model that outperforms the strong BM25 baseline on the BEIR retrieval benchmark without using any labeled data. When fine-tuned, E5 obtains the best results on the MTEB benchmark, beating existing embedding models with 40x more parameters.
translated by 谷歌翻译
顺序面部图像编辑中存在三个问题:不连续的编辑,不一致的编辑和不可逆转的编辑。不连续的编辑是当前的编辑无法保留先前编辑的属性。不一致的编辑是交换属性编辑订单不能产生相同的结果。不可逆转的编辑意味着在面部图像上操作是不可逆的,尤其是在顺序的面部图像编辑中。在这项工作中,我们提出了三个概念和相应的定义:编辑连续性,一致性和可逆性。然后,我们提出了一个新型模型,以实现编辑连续性,一致性和可逆性的目标。定义了足够的标准以确定模型是否是连续,一致和可逆的。广泛的定性和定量实验结果验证了我们提出的模型,并表明连续,一致和可逆的编辑模型具有更灵活的编辑功能,同时保留面部身份。此外,我们认为我们提出的定义和模型将在多媒体处理中具有广泛而有希望的应用。代码和数据可在https://github.com/mickoluan/ccr上找到。
translated by 谷歌翻译
在某些研究中,无限的外部存档已用于存储通过进化多目标优化算法发现的所有非主导溶液。已经表明,从存储解决方案中选择的溶液子集通常比最终人群更好。但是,无限档案的使用并不总是现实的。当检查的解决方案数量很大时,我们必须预先指定存档尺寸。在这项研究中,我们检查了存档大小对三个方面的影响:(i)选定的最终解决方案集的质量,(ii)存档维护和最终解决方案集的总计算时间,以及(iii)所需的内存大小。毫不奇怪,存档尺寸的增加可提高最终解决方案集质量。有趣的是,中型存档的总计算时间比小型档案和庞大的档案库(例如,无限档案)大得多。为了减少计算时间,我们检查了两个想法:仅在后代进行定期档案更新和存档。与每一代更新档案库相比,第一个想法可以使用较短的计算时间以略有增加的记忆尺寸来获得几乎相同的最终解决方案设置质量。第二个想法大大减少了计算时间,而最终解决方案集质量的成本略有恶化。 Based on our experimental results, some suggestions are given about how to appropriately choose an archiving strategy and an archive size.
translated by 谷歌翻译
气道分割对于检查,诊断和预后的肺部疾病至关重要,而其手动描述则不当。为了减轻这种耗时且潜在的主观手动程序,研究人员提出了从计算机断层扫描(CT)图像自动分割气道的方法。但是,一些小型气道分支(例如,支气管和终末支气管)显着加剧了通过机器学习模型的自动分割难度。特别是,气道分支中体素值和严重的数据失衡的方差使计算模块容易导致不连续和假阴性预测。注意机制表明了分割复杂结构的能力,而模糊逻辑可以减少特征表示的不确定性。因此,由模糊注意力层给出的深度注意力网络和模糊理论的整合应该是升级的解决方案。本文提出了一种有效的气道分割方法,包括一个新型的模糊注意力神经网络和全面的损失函数,以增强气道分割的空间连续性。深层模糊集由特征图中的一组体素和可学习的高斯成员功能制定。与现有的注意机制不同,所提出的特异性模糊注意力解决了不同渠道中异质特征的问题。此外,提出了一种新的评估指标来评估气道结构的连续性和完整性。该方法的效率已通过在包括精确的09和LIDC数据集在内的开放数据集上进行测试,以及我们的内部Covid-19和纤维化肺病数据集证明了这一建议的效率。
translated by 谷歌翻译
供应链平台(SCP)为下游行业提供了许多原材料。与传统的电子商务平台相比,由于用户兴趣有限,SCP中的数据更为稀疏。为了解决数据稀疏问题,可以应用跨域建议(CDR),从而通过源域信息提高目标域的建议性能。但是,将CDR应用于SCP,直接忽略了SCP中商品的层次结构,从而降低了建议性能。为了利用此功能,在本文中,我们以餐饮平台为例,并提出了图形跨域推荐模型GRES。该模型首先构造了树状图,以表示菜肴和成分不同节点的层次结构,然后应用我们提出的Tree2Vec方法将GCN和BERT模型组合到嵌入图中以嵌入图表以获取建议。商业数据集上的实验结果表明,GRES在供应链平台的跨域建议中明显优于最先进的方法。
translated by 谷歌翻译
本文着重于当前过度参数化的阴影去除模型的局限性。我们提出了一个新颖的轻型深神经网络,该网络在实验室色彩空间中处理阴影图像。提出的称为“实验室网络”的网络是由以下三个观察结果激励的:首先,实验室颜色空间可以很好地分离亮度信息和颜色属性。其次,顺序堆叠的卷积层无法完全使用来自不同接受场的特征。第三,非阴影区域是重要的先验知识,可以减少阴影和非阴影区域之间的剧烈差异。因此,我们通过涉及两个分支结构的结构来设计实验室网络:L和AB分支。因此,与阴影相关的亮度信息可以很好地处理在L分支中,而颜色属性则很好地保留在AB分支中。此外,每个分支由几个基本块,局部空间注意模块(LSA)和卷积过滤器组成。每个基本块由多个平行的扩张扩张率的扩张卷积组成,以接收不同的接收场,这些接收场具有不同的网络宽度,以节省模型参数和计算成本。然后,构建了增强的通道注意模块(ECA),以从不同的接受场聚集特征,以更好地去除阴影。最后,进一步开发了LSA模块,以充分利用非阴影区域中的先前信息来清洁阴影区域。我们在ISTD和SRD数据集上执行广泛的实验。实验结果表明,我们的实验室网络井胜过最先进的方法。同样,我们的模型参数和计算成本降低了几个数量级。我们的代码可在https://github.com/ngrxmu/lab-net上找到。
translated by 谷歌翻译
尽管脑肿瘤分割的准确性最近取得了进步,但结果仍然遭受低可靠性和鲁棒性的影响。不确定性估计是解决此问题的有效解决方案,因为它提供了对分割结果的信心。当前的不确定性估计方法基于分位数回归,贝叶斯神经网络,集合和蒙特卡洛辍学者受其高计算成本和不一致的限制。为了克服这些挑战,在最近的工作中开发了证据深度学习(EDL),但主要用于自然图像分类。在本文中,我们提出了一个基于区域的EDL分割框架,该框架可以生成可靠的不确定性图和可靠的分割结果。我们使用证据理论将神经网络的输出解释为从输入特征收集的证据价值。遵循主观逻辑,将证据作为差异分布进行了参数化,预测的概率被视为主观意见。为了评估我们在分割和不确定性估计的模型的性能,我们在Brats 2020数据集上进行了定量和定性实验。结果证明了所提出的方法在量化分割不确定性和稳健分割肿瘤方面的最高性能。此外,我们提出的新框架保持了低计算成本和易于实施的优势,并显示了临床应用的潜力。
translated by 谷歌翻译
在本文中,我们提出了一个新的密集检索模型,该模型通过深度查询相互作用学习了各种文档表示。我们的模型使用一组生成的伪Queries编码每个文档,以获取查询信息的多视文档表示。它不仅具有较高的推理效率,例如《香草双编码模型》,而且还可以在文档编码中启用深度查询文档的交互,并提供多方面的表示形式,以更好地匹配不同的查询。几个基准的实验证明了所提出的方法的有效性,表现出色的双重编码基准。
translated by 谷歌翻译